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摘要 : 【 目的 ] 利用 分 布 式 语义 关联 计算 词 衔接 关系 , 解决 目前 词汇 链 构建 时 存在 的 词 间 关 系 探测 深度 不 够 等 问 
题 ， 提 高 词汇 链 构建 质量 。[ 方法 】 对 词汇 链 构建 的 技术 方法 进行 归纳 ,利用 WordNet 词典 关系 来 计算 文本 中 语 
言 单元 的 语义 关联 ， 利 用 分 布 式 记忆 模型 来 计算 语言 单元 之 间 的 潜在 语义 关系 , 将 这 两 种 语义 关系 结合 起 来 实 
现 词汇 链 文本 表示 模型 的 构建 。 同 时 在 理论 研究 的 基础 之 上 选择 医学 领域 科技 论文 进行 对 比 实验 。[ 结果 ] 在 文 
本 主题 描述 方面 , 本 文 方法 的 词汇 链 构 建 结果 要 优 于 非 贪 禁 算 法 , 算法 耗 时 与 非 贪 焚 算 法 相当 。[ 局 限 】 算 法 耗 
时 较 长 ; 没有 完整 考虑 词 衔接 关系 ; 只 在 对 医学 领域 科技 文献 的 主题 识别 中 验证 了 该 方法 的 有 效 性 ， 还 需要 在 
更 多 领域 进行 证 明 。[ 结论 ) 分 布 式 语义 关联 可 以 识别 潜在 语义 ,对 使 用 多 元 短语 构建 词汇 链 也 有 较 大 的 帮助 ,能 
有 效 地 增强 词汇 链 构建 效果 。 
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链 构 建 过 程 中 得 到 了 最 广泛 的 应 用 ,是 构建 词汇 链 的 
1 sl 主要 方法 。 针 对 英文 文献 ， 主要 使 用 WordNet、 罗 杰 词 
词汇 链 (Lexical Chain) 文 本 表示 模型 是 一 种 对 语 。 Hi(Roget's Thesaurus) 等 进行 构建 ,针对 中 文 文献 ， 主 
篇 中 的 词汇 衔接 (Lexical Cohesion) 关 系 进行 建 模 的 文 ”要 使 用 HowNet、《 同 义 词 词 林 》 等 进行 构建 ("外 。 基 
本 表示 模型 ， 能 够 体现 语 篇 中 丰富 的 语义 信息 。 词 汇 。 于 统计 信息 的 词汇 链 构 建 方法 对 围绕 主题 时 词汇 同时 
链 构 造 了 一 个 易于 理解 的 上 下 文 环境 ， 有 助 于 确定 多 出 现 的 这 种 倾向 性 进行 统计 语言 学 分 析 形 成 同 现 关系 
义 词 在 文本 中 的 具体 含义 ; 词汇 链 能 为 文本 结构 以 及 ”知识 库 , 然后 利用 知识 库 计 算 对 象 文 本 的 相似 度 来 表 
文本 一 致 性 提供 线索 , 有 助 于 理解 文本 的 大 意 。 词 汇 。 示 词 汇 衡 接 关系 ,从 而 构建 词汇 链 。 所 使 用 的 算法 主 
链 文本 表示 模型 结构 简单 , 广泛 应 用 于 文本 切 分 趾 、 自 FLFR BS RAI! LDA Jrik" ^. E48 
SRE SCARRED, AA BSI 。 数 方法 0 等 。 基 于 图 的 方法 将 文本 转化 为 图 ,然后 利 
和 情感 识别 中等 领域 。 用 图 聚 类 等 方法 寻找 词汇 链 09。 由 于 基于 词典 和 基于 
词汇 衔接 关系 的 计算 方法 可 以 归 为 三 类 : 基于 词 ”统计 信息 的 方法 二 者 互补 ， 因 此 开始 有 人 尝试 将 两 类 
典 的 方法 、 基 于 统计 的 方法 和 基于 图 的 方法 中 。 基 于 词 。 方法 结合 起 来 构建 词汇 链 ， 如 Marathe 等 尝试 将 分 布 
典 的 词汇 链 构建 方法 使 用 词典 中 定义 好 的 语义 关联 关 ” 式 语义 和 词典 相 结 合 , 在 词汇 链 构建 中 进行 应 用 07 
系 来 计算 词汇 衔接 关系 , 易于 理解 、 便 于 实施 , 在 词汇 ”获得 了 不 错 的 效果 。 
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对 词汇 链 构 建 方法 进行 研究 和 归纳 后 ,， 发现 目前 
词汇 链 构建 方法 中 词 衔接 计算 方法 中 存在 一 些 问题 。 

(1) 使 用 词典 可 以 探测 到 明确 的 语义 关联 , 使 用 
统计 信息 可 以 探测 到 词 之 间 的 潜在 关联 , 二 者 都 是 词 
衔接 中 的 重要 类 型 。 但 是 目前 使 用 的 统计 信息 相对 有 
限 , 无 法 更 深入 地 探测 候选 词 之 间 的 潜在 关联 。 

(2) 候选 词 的 上 下 文 信息 对 候选 词 词义 或 词 间 关 
系 计算 的 影响 较 大 , 但 是 目前 对 候选 词 上 下 文 的 使 用 
仍然 有 限 。 

(3) 尽管 已 经 有 研究 尝试 将 词典 和 统计 信息 融合 
使 用 , 但 是 仍 没 有 解决 词典 中 未 收录 的 词 或 者 短语 无 
法 参与 词汇 链 构建 的 问题 。 

基于 以 上 分 析 , 笔者 提出 一 种 分 布 式 语义 增强 的 
词汇 链 构建 算法 ,尝试 解决 以 上 提 到 的 问题 。 在 算法 
中 , 利用 WordNet 词典 关系 来 计算 文本 中 语言 单元 的 
语义 关联 ,利用 分 布 式 记 忆 模 型 来 计算 语言 单元 之 间 
的 潜在 语义 关系 , 并 对 二 者 进行 融合 计算 , 构建 词汇 
链 。 本 文 所 提 方 法 的 特点 为 : 

(1) 保留 原文 本 中 的 更 丰富 的 信息 

本 研究 提出 了 分 布 式 语义 加 强 的 词汇 链 构 建 方 
法 ， 同 时 计算 候选 词 之 间 的 语义 关系 和 分 布 式 语义 关 
系 ， 从 多 个 角度 对 候选 词 之 间 的 关联 进行 计算 ,可 以 
发 现 更 丰富 的 语义 , 保留 原 语 篇 中 更 多 的 信息 。 

(2) 考虑 了 上 下 文 坏 境 对 于 术语 含义 的 影响 

本 文 方法 中 将 计算 候选 词 的 分 布 式 语义 关联 强度 
纳入 到 词汇 链 构建 的 过 程 中 。 在 计算 过 程 中 , 尽 可 能 
充分 考虑 候选 词 所 在 上 下 文 的 环境 , 包括 候选 词 在 训 
练 集 所 处 环境 中 的 介词 搭配 情况 、 连 词 搭配 情况 以 及 
形容 词 和 动词 的 使 用 情况 。 这 些 信息 对 于 候选 词 的 消 
长 和 词 衔接 关系 的 识别 有 很 重要 的 参考 作用 。 

(3) 词典 中 未 收录 的 词 或 短语 也 可 以 参与 构建 词 
汇 链 

本 方法 中 可 以 通过 计算 这 些 候选 词 或 者 候选 短语 
的 分 布 式 语义 关联 和 共 现 关联 来 计算 关系 ,因此 在 词 
汇 链 结果 中 ,也 将 出 现 很 多 短语 或 者 专业 词汇 。 


2 分 布 式 记忆 模型 


分 布 式 语义 模型 (Distributional Semantics Models， 
DSM) 的 基本 理论 是 语言 学 领域 的 分 布 式 假设 理论 ， 
即 “ 在 相同 的 上 下 文中 出 现 的 词汇 在 某 种 程度 上 有 类 


Wie SOUS), 在 这 种 假设 下 , 一 个 词 可 以 映射 为 分 布 
式 语义 空间 中 的 一 个 向 量 , 向 量 的 维度 对 应 词 周 围 的 
上 下 文 环境 , 维度 值 可 以 通过 与 上 下 文 环境 共 现 信息 
来 确定 。 如 果 两 个 词 所 对 应 的 向 量 较为 相似 , 那么 这 
两 个 词 就 有 相似 的 含义 中 1。 分 布 式 语义 模型 的 建立 过 
程 为 收集 术语 在 语料库 中 的 上 下 文 环 境 并 进行 分 析 ， 
通过 计算 术语 和 文档 、 上 下 文中 语言 单元 或 者 句法 结 
构 的 共 现 信息 , 将 术语 所 在 的 语言 环境 表示 为 一 个 多 
维 的 向 量 空 间 ， 建 立 术 语 -文档 和 矩阵、 术语 -上 下 文 矩 
阵 、 词 对 -模式 和 矩阵 等 , 从 而 建立 起 分 布 式 语 义 空间 。 
通过 这 种 空间 模型 可 以 体现 术语 之 间 的 语义 关联 ,可 
以 计算 语言 单元 之 间 的 相似 度 ， 进一步 发 现 语言 单元 
之 间 潜 在 的 语义 联系 。 较 为 知名 的 分 布 式 语义 模型 包 
括 潜在 语义 分 析 (Latent Semantic Analysis)20、 随 机 索 
引 (Random Indexing)" , iffi [5] (Dependency Vector) 
和 分 布 式 记忆 (Distributional Memory)?! , 

在 几 种 分 布 式 语义 模型 中 , 分 布 式 记忆 空间 在 规 
则 的 设 定 、 三 元 组 的 使 用 方面 都 比较 灵活 ， 因 此 本 文 
选择 分 布 式 记忆 模型 来 计算 候选 词 之 间 的 分 布 式 语义 
相似 度 。 通 过 设 定 抽取 规则 , 分布 式 记忆 模型 可 以 从 
术语 上 下 文中 抽取 共 现 信息 ， 表 示 为 “术语 -关联 - 术 
语 ” 三 元 组 ,同时 计算 每 个 三 元 组 的 权 值 , 构成 一 个 三 
维 的 张 量 < 术语 ,关联 , 术语 , 值 >。 与 其 他 分 布 式 语义 
框架 不 同 的 是 , 分 布 式 记忆 模型 中 的 关系 可 以 进行 自 
由 设 定 ,可 以 选择 句法 关系 (如 介词 关系 ), 也 可 以 选 
择 其 他 任何 一 种 可 连接 两 个 术语 的 关联 类 型 。 另 外 ， 
分 布 式 记忆 模型 可 以 根据 需要 将 三 维 张 量 转化 为 不 同 
类 型 的 二 维 分 布 式 和 矩阵 ， 如 “< 术语 1, (关系 ,术语 2)>” 
矩阵 或 者 “<( 术 语 1, 术语 2, ), 关系 > 矩阵 ,从 而 从 不 
同 的 角度 来 表现 文本 中 。 目 前 , 分 布 式 记忆 模型 已 经 
得 到 了 广泛 应 用 , Su. QE UNTERE WV RUP SA) 
布 式 记忆 库 已 经 开始 构建 , 并 应 用 于 多 种 自然 语言 的 
处 理 。 


3 ”分布 式 语 义 增 强 词汇 链 构 建 算法 


分 布 式 语义 增强 词汇 链 构 建 算法 的 主要 步骤 有 : 
构建 候选 词 列表 、 语 义 关联 关系 计算 、 分 布 式 语义 关 
系 计 算 、 关 系 融 合计 算 、 词 汇 链 构建 ， 如 图 1 所 示 。 
其 中 需要 解决 的 关键 问题 包括 分 布 式 语义 空间 的 构 
建 、 分 布 式 语义 关系 的 计算 、 语 义 关 联 的 计算 、 关 系 
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融合 的 计算 和 词汇 链 的 构建 算法 。 
预 处 理 


结果 


抽取 候选 词 
候选 词 序列 ' 


预 处 理 
抽取 术语 

术语 间 关 系 | 
提取 三 阶 | 
aki | 


| En 


分 布 式 语 义 计算 


关系 融合 计算 


1 分布 式 记忆 空间 | ! 
| 构建 分 布 式 语 义 空间 | 


p 


构建 词汇 链 

图 1 分 布 式 语义 增强 词汇 链 构 建 流程 图 
3.1 分布 式 语义 空间 的 构建 和 分 布 式 语义 关系 的 
计算 

分 布 式 语义 空间 的 构建 首先 需要 从 语料库 中 识别 
术语 和 术语 之 间 的 关系 , 组 合成 为 三 元 组 后 ， 再 计算 
本 地 互信 息 (Local Mutual Information，LMD 值 ， 构 成 
分 布 式 语 义 空间 。 

对 语 料 进行 词性 识别 和 依赖 语法 解析 , 选择 类 型 
HNN, NNS, NNP, NNPS” 的 名 词 和 依赖 语法 中 类 型 
为 “Compound” 的 二 元 短语 PP， 作为 术语 ; 在 依赖 语法 
解析 结果 中 , 选择 介词 、 连 词 、 形 容 词 和 动词 4 种 关 
联 规则 ,作为 三 元 组 中 的 关联 , 抽取 三 元 组 < 术语 , 依 
赖 语法 类 型 , 术语 >, 规则 具体 内 容 如 表 1 所 示 : 


表 1 三 元 组 抽取 规则 


关联 规则 名 称 ”依赖 语法 类 型 举例 


介词 规则 pobj 
连词 规则 conj 


«damage, pobj, Cardiomyocute> 


«heart failure, conj, event» 


EM) acomp. amod, nmod «death, amod, sudden» 


动词 规则 


agent、dobj 、iobj subj «cure, dobj, disease> 


抽取 三 元 组 之 后 , 使 用 本 地 互信 息 (LMD 公 式 中 | 
计算 三 元 组 的 关系 权重 , 如果 LMI EAMA, MEF 
该 组 合 。LMI 计算 公式 如 下 : 
P(x,r, y) 
EDEOPOJ 0 


这 样 三 元 组 就 转化 为 一 个 带 权重 的 三 阶 张 量 < 术 


LMI = P(x,r, y) log 


现代 图 书 情报 技术 


ChinaXiv 合 作 期 刊 


O FRBI 


语 , 依赖 语法 类 型 , iB, LML>， 当 所 有 的 三 元 组 都 
转化 为 带 权重 的 三 阶 张 量 之 后 ,分布 式 记忆 空间 则 构 
建 完成 。 
3.2” 词 衔接 关系 的 计算 

首先 对 目标 文档 进行 预 处 理 , 采取 与 分 布 式 记忆 
空间 相同 的 术语 抽取 方法 ,选择 类 型 为 “NN, NNS, 
NNP,，NNPS”* 名 词 和 依赖 语法 中 类 型 为 “Compound” 的 
二 元 短语 , 作为 构建 词汇 链 的 候选 词 。 

本 文 提出 的 方法 中 , 需要 计算 两 个 候选 词 之 间 的 
分 布 式 语义 关联 和 词典 语义 关联 。 

(1) 分 布 式 语义 关联 的 计算 

计算 候选 词 的 分 布 式 语义 关联 时 , 需要 动态 地 从 
分 布 式 语义 空间 中 抽取 候选 词 的 环境 向 量 。 分 布 式 语 
义 空间 中 , 术语 的 上 下 文 环境 以 三 阶 张 量 < 术语 1, 依 
赖 语法 类 型 , 术语 2, LMI> 的 方式 保存 ,在 进行 抽取 时 ， 
用 (依赖 语法 类 型 , 术语 2) 作 为 候选 词 x 的 环境 向 量 维 
BE, 将 三 阶 张 量 转 为 二 阶 矩 阵 <x，( y>, EER AE 
为 对 应 的 LMI 值 。 表 2 中 为 术语 “death” 和 “heart 
failure” 通 过 转化 后 的 二 阶 向 量 。 


表 2 二 阶 向 量 示 意 表 


维度 ”nmod,， dobj, amod', dobj, conj, 
术语 inclusion report sudden worsen event ~~ 
death 25.6134 84.9131 427.8113 0 和 
heart failure 0 0 0 44.3085 82.158 ...... 


最 后 通过 计算 两 个 向 量 间 的 夹 角 余 弦 值 来 表示 两 
个 候选 词 的 潜在 语义 关系 强度 , 计算 结果 直接 参与 词 
汇 链 的 计算 ,余弦 值 计算 公式 [9 如 下 所 示 : 


n 


Di xy) 


cos 8 = l (2) 


ier Èo 
i=l i=l 


(2) 语义 关联 关系 的 计算 

本 算法 中 语义 关联 关系 的 计算 选用 英文 通用 词 
W WordNet (EA TA?! AINE Silber 等 的 方 
法 B11, 选择 重复 、 同 义 词 /反义词 、 整 体 / 部 分 关系 、 
上 下 位 类 、 兄 弟 关系 这 5 种 语义 关系 , 窗口 距离 设 定 
为 1 个 句子 、3 个 句子 和 不 限 距 离 , 每 种 情况 下 对 关系 
赋予 不 同 权 值 ， 用 于 词 间 关 系 的 计算 。 权 重 赋值 取决 
于 词汇 的 语义 关联 类 型 及 其 窗口 距离 ， 具体 赋值 如 表 
3 所 示 。 


表 3  WordNet 中 语义 关系 的 权重 赋值 


Be ay 1 个 句子 。 3 个 句子 KREN 
重复 1 1 1 
同义词 /反义词 1 1 1 
整体 /部 分 关系 1 0.5 0.5 
上 下 位 类 1 0.5 0.5 
兄弟 关系 1 0.3 0 


33 ”关系 融合 计算 

两 个 候选 词 之 间 的 词汇 衔接 关系 强度 需要 将 两 种 
关系 强度 进行 融合 计算 。 经 过 实验 发 现 , 计算 中 采用 
加 权 融 合 方法 较为 合理 , 公式 如 下 : 


Relation(w;, wj)=ax Wordnet(w;, wj) +bx Dist(w;, wj) (3) 


其 中 ，Wordnet(wi w;) 为 语义 关联 关系 强度 ， 
Dist(w,, wj) 为 分 布 式 语义 关系 强度 。a Fl 为 经 验 常数 。 
3.4 词汇 链 的 构建 算法 

候选 词 与 已 有 词汇 链 之 间 的 词汇 衔接 关系 强度 取 
候选 词 和 链 中 所 有 词 的 词汇 衔接 关系 强度 的 平均 值 ， 
公式 如 下 : 

Relation(w;, Chain) = average(Relation(w;, wn )) (4) 


构建 词汇 链 时 , 参考 Barziley 等 的 方法 中 ,依照 
候选 词 出 现 的 顺序 对 候选 词 逐一 进行 处 理 ,， 先 计算 该 
候选 词 与 现 有 所 有 词汇 链 的 词汇 衔接 关系 强度 
Relation(wi，Chain)， 若 当前 词汇 链 为 空 或 者 所 有 
Relation(w;, Chain, )#ih/))\ Fite BUA. Thres(w, C)， 则 新 
建 以 当前 候选 词 开 头 的 词汇 链 , 否则 将 该 候选 词 加 入 
Relation(wi，Chaini) 值 最 大 的 词汇 链 Chain;。 构 建 词汇 
链 的 计算 机 伪 码 如 下 所 示 : 
候选 词汇 链 序列 LC List() 
For 每 个 候选 词 
For 每 个 词汇 链 
计算 候选 词 与 链 的 关系 权 值 Relation(w, Chain) 
End for 
If (LC List() is empty) or (all score (w, C)<Thres(w, C)) 
建立 以 当前 候选 词 开头 的 词汇 链 
Else 
加 入 关系 权 值 最 大 的 词汇 链 
End if 
End for 


4 实验 和 分 析 
采用 医学 领域 的 科技 论文 作为 实验 数据 ， 以 
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“heart* 和 “cardiac” 为 关键 词 在 ScienceDirect 数据 库 中 
进行 检索 ,从 检索 结果 中 选择 100 篇 英文 全 文 文档 作 
为 分 布 式 记忆 的 语料库 ， 从 而 进行 分 布 式 语义 空间 的 
构建 。 构建 完 的 分 布 式 语义 空间 中 共有 71 023 个 三 元 
组 。 使 用 斯 坦 福 大 学 研制 的 自然 语言 分 析 处 理工 具 包 
Stanford CoreNLPE5 对 语 料 进 行 预 处 理 , 包括 词性 标 
注 、 停 用 词 处 理 等 , 将 文本 转化 为 程序 可 自动 处 理 的 
XML 标准 格式 文档 。 

实验 中 , 设 定 词 间 关系 计算 公式 中 的 两 个 经 验 参 
数 a 和 b BUEN 1, 如 公式 (3) 所 示 。 候 选 词 加 入 词汇 
SHE A) A. Thres(w, C) 设 置 为 0.5。 

Relation(w;, wj) = Wordnet(w;, wj)+ Dist(w;, wj) (5) 

41 通过 关键 词 识 别 效果 进行 质量 对 比 

从 关键 词 抽取 结果 角度 对 词汇 链 构建 结果 的 质量 
进行 对 比 。 本 文 以 “heart* 和 “cardiac” 为 关键 词 在 
ScienceDirect 数据 库 中 进行 检索 ,从 检索 结果 中 随机 
选择 50 篇 摘要 信息 。 请 一 位 医学 专家 对 50 篇 摘要 进 
行 阅读 ,每 篇 标注 3-6 个 关键 词 。 随 后 , 请 男 一 位 医学 
专家 分 别 对 非 贪 焚 算 法 构建 的 词汇 链 和 本 文 算法 构建 
的 词汇 链 结果 进行 审阅 , 根据 词汇 链 的 构建 情况 完成 
关键 词 抽取 。 将 抽取 结果 对 照 专 家 给 出 的 关键 词 , TF 
算 其 准确 率 和 召回 率 。 结 果 如 表 4 ron: 

表 4 算法 主题 识别 对 比 表 


= 


算法 准确 率 召回 率 
本 文 算法 70.43% 73.82% 
非 贪 焚 算 法 52.92% 57.51% 


从 表 4 结果 中 可 以 看 出 , 本 文 算法 的 词汇 链 构建 
结果 的 准确 率 和 召回 率 要 高 于 非 贪 焚 算 法 构建 结果 。 
4.2 ”分 布 式 语义 对 于 词汇 链 构 建 的 影响 分 析 

从 结果 中 随机 抽取 5 个 样本 进行 数据 统计 ,结果 
如 表 5 所 示 。 通 过 对 数据 结果 进行 分 析 , 可 以 发 现 , 本 
文 算法 在 语义 信息 发 现 数量 、 词 语 含义 的 确定 和 候选 
词 发 现 数量 三 个 方面 优 于 非 贪 梦 算 法 。 

(1) 分 布 式 语义 发 现 了 更 为 丰富 的 语义 信息 。 

本 文 算法 结果 中 , 发 现 有 效 WordNet 关系 3 225 
个 , 计算 分 布 式 语义 关联 共 14 710 次 , 得 到 结果 大 于 
0 的 分 布 式 语义 关联 9 508 个 , 76 WordNet 关联 但 是 有 
分 布 式 语义 关联 的 术语 对 共 6 803 个 ,其 中 二 元 短语 
参与 计算 的 有 效 分 布 式 语义 关联 347 个 ,在 无 WordNet 
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de 5 词汇 链 构建 结果 主要 数据 对 照 表 

vo ee KARE = ook ABRIL ren z 有 效 词汇 链 中 包 有 效 结果 中 包含 

Wi RA FRR Oe 语 数量 Hem EA mis ue ur 
样本 1 291 117 13 8 34, 12, 10, 8, 7, 5, 5, 5 86 13 
分 布 式 语义 ”样本 2 364 143 21 11 18, 15, 15, 14, 14, 11, 8, 7, 6, 5, 5 118 21 
增强 词汇 链 ”样本 3 313 117 12 10 — 13,10,10,9,8,6,6,5,5,5 77 10 
构建 算法 — 样本 4 — 0347 127 17 7 43,23,15,8,7,6,5 107 17 
样本 5 283 128 19 4  36,26,7,7 76 19 
样本 1 291 98 = 6 15, 8, 8, 6, 5,5 47 = 
样本 2 364 117 一 5  11,10,9,6,5 41 一 
非 贪 禁 算 法 ”样本 3 313 100 一 4  208,8,5 41 = 
样本 4 347 109 = 7 16, 14, 13, 10, 7, 6, 5 71 = 
样本 5 283 92 一 4  22,6,6,6 40 = 


关联 但 是 存在 分 布 式 语义 关联 的 术语 对 中 , 分布 式 语 
义 关 联 较 强 的 术语 对 包括 <baseline function, 
impairment> 、 treatment> , «correlation, 
difference», «artery, disease> 等 ,这 些 术语 对 的 分 布 式 
语义 关联 强度 都 在 0.5 左右 。 对 这 些 术语 对 的 原 语 篇 
进行 人 工 阅 读 分 析 , 发 现 这 些 术语 对 在 语 篇 中 的 确 存 
在 较 强 的 关联 , 但 是 使 用 WordNet 无 法 发 现 这些 关 
联 。 可 以 说 , 分 布 式 语义 所 发 现 多 元 短语 和 潜在 语义 
关联 对 于 词汇 链 构 建 有 很 明显 的 影响 , 很 大 程度 上 弥 
补 了 只 借助 词典 进行 词汇 链 构建 的 缺陷 。 

Q) 分 布 式 语义 可 以 根据 上 下 文 环境 分 析 候 选 词 
的 含义 ,进而 更 准确 地 发 现 词 衔接 关系 。 

在 词汇 链 构建 过 程 中 ,分布 式 语义 在 确定 候选 词 
含义 方面 起 到 了 作用 ， 可 以 更 准确 地 发 现 词 衔接 关 
系 。 如 “evolution” 一 词 , 含有 两 个 含义 ， 第 一 指 进化 ， 
第 二 指 进展 。 在 使 用 非 贪 禁 算 法 进行 词汇 链 构 建 时 ， 
算法 选择 了 第 二 个 售 义 , 将 “evolution” 同 “action” 划 分 


<patient, 


在 同一 个 词汇 链 。 而 使 用 本 文 算法 构建 词汇 链 时 , 通 
过 分 布 式 语义 计算 发 现 “evolution”* 同 “origin” 的 关联 更 
强烈 。 类似 的 例子 还 有 “species” 的 含义 应 为 “物种 ”"， 相 
比 “model”,“species” 的 含义 同 “human” 更 接近 ,进而 分 
为 一 个 词汇 链 等 。 

(3) 分 布 式 语义 帮助 本 文 方法 发 现 更 多 的 候选 词 。 

在 候选 词 的 总 数 方面 , 本 文 算法 在 5 篇 测试 样 例 
中 总 共 发 现 候选 词 632 个 、 二 元 短语 82 个 , 在 最 终 的 
有 效 词汇 链 中 保留 了 464 个 候选 词 .80 个 二 元 短语 ; dE 
贪 焚 算 法 总 共 发 现 候 选 词 516 个 , 在 最 终 的 有 效 词汇 链 
中 保留 了 240 个 候选 词 , 候选 词 数 量 明显 少 于 本 文 算法 。 
4.3 算法 耗 时 

实验 中 , 对 5 个 样本 进行 词汇 链 构 建 时 耗费 的 时 
HUK 6 所 示 。 分 布 式 语义 增强 算法 和 非 贪 焚 算 法 的 
时 间 复 杂 度 一 致 , 但 是 分 布 式 语义 增强 算法 需要 从 分 
布 式 语义 空间 中 实时 抽取 环境 向 量 进行 相似 度 计算 ， 
大 大 增加 了 构建 的 时 间 。 


表 6 算法 耗 时 对 比 (ms) 


算法 样本 1 样本 2 样本 3 样本 4 样本 5 
非 贪 焚 算 法 37 531 81 425 145 708 74 170 36 828 
分 布 式 语义 增强 算法 6416 513 11 615 083 11 582 981 16 000 995 7 145 408 
建立 索引 后 的 分 布 式 语义 增强 算法 77 723 167 048 136 472 88 515 61 987 
通过 研究 发 现 , 在 分 布 式 语义 空间 稳定 的 情况 T， 5 结 dE 


两 个 术语 在 该 空间 中 的 分 布 式 语 义 关 联 是 稳定 的 。 
此 , 在 实验 中 将 经 常 使 用 的 术语 之 间 的 分 布 式 语义 关 
联 保存 在 数据 库 中 , 作为 分 布 式 语义 关联 计算 的 索 
引 。 该 方法 提高 了 实际 使 用 中 的 算法 效率 , 算法 计算 
时 间 达 到 了 和 非 贪 焚 算 法 相当 的 水 平 。 
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本 研究 的 创新 工作 主要 体现 在 以 下 两 点 : 

(1) 提出 一 种 分 布 式 语义 增强 的 词汇 链 构建 方法 

在 该 方法 中 , 采用 分 布 式 语义 关联 对 候选 词 之 间 
的 语义 关系 进行 加 强 , 在 词汇 链 构建 时 可 以 考虑 更 多 
更 丰富 的 文本 关联 ,探测 到 隐藏 于 次 层次 中 的 词 衔接 
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KA, 提高 了 词汇 链 的 构建 效果 。 通 过 实验 可 以 看 出 ， 
本 文 提 出 的 分 布 式 语 义 增 强 的 词汇 链 构建 方法 在 实验 
结果 中 优 于 非 贪 焚 算 法 ， 计 算 过 程 中 所 发 现 的 分 布 式 
语义 关系 对 词汇 链 的 构建 也 产生 了 足够 的 影响 ,提高 
了 词汇 链 构建 的 效果 。 

Q) 提出 一 种 分 布 式 记 忆 模 型 的 应 用 场景 

分 布 式 记 忆 模 型 是 一 个 新 颖 的 模型 , 在 国内 目前 
还 缺少 有 效 的 研究 。 本 研究 率先 在 词汇 链 的 构建 中 使 
用 分 布 式 记忆 模型 , 根据 需要 设 定 了 三 元 组 抽取 规则 ， 
提出 了 一 种 分 布 式 记忆 模型 的 使 用 场景 ,并 在 实验 中 
验证 了 其 效果 。 为 今后 的 分 布 式 记忆 模型 研究 打下 了 
基础 。 

在 未 来 的 工作 中 , 还 需要 解决 以 下 的 一 些 问题 。 
分 布 式 语 义 解决 的 是 在 大 规模 语 料 中 发 现 候选 词 的 潜 
在 关联 的 问题 , 但 是 无 法 解决 在 某 一 个 文献 中 的 候选 
词 有 特定 的 含义 和 特殊 的 语义 关联 ， 因 此 对 目标 文献 
进行 词汇 共 现 分 析 获 取 其 中 的 语义 关联 ， 可 作为 对 分 
布 式 语义 增强 方法 的 进一步 补充 。 词 衔接 关系 的 发 现 
仍然 不 足 。Hoey 针对 词汇 链 的 理论 基础 一 一 词 衔接 关 
Ax, 进行 了 研究 ,提出 词 衔接 关系 的 6 种 类 型 六 ， 而 目 
前 还 只 能 探测 到 其 中 的 3 种 类 型 , 需要 其 他 的 方法 来 
更 全 面 地 探测 词 衔接 关系 。 在 下 一 步 的 工作 中 , 可 以 
尝试 使 用 文献 计量 学 中 表示 关键 词 之 间 关 联 强 度 的 统 
计 指 数 Salton 指数 和 Jaccard 指数 来 计算 词汇 共 现 关 
R, 作为 对 分 布 式 语义 增强 方法 的 补充 。 同 时 对 分 布 
式 语义 进行 更 深入 的 研究 , 使 得 词汇 衔接 关系 的 计算 
更 为 完整 。 
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Using Semantic Model to Build Lexical Chains 
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Abstract: [Objective] This paper uses Distributional Semantics to build high quality lexical chains. [Methods] First, 
we built an algorithm using WordNet Thesaurus to compute the semantic relations among language units of the texts. 
Second, we adopted the Distributional Memory Model to compute their latent semantic relations. Finally, we combined 
these relations to build the lexical chains, which were examined with papers from medical science. [Results] The 
proposed algorithm was better than the non-greedy methods to describe the papers' topics. [Limitations] The efficiency 
of the algorithm needs to be improved. It should also be examined with papers from other fields. [Conclusions] The 
proposed model can detect the latent semantic relation, and then improve the quality of lexical chains building with 
phrases. 
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